机器学习潜力是分子模拟的重要工具,但是由于缺乏高质量数据集来训练它们的发展,它们的开发阻碍了它们。我们描述了Spice数据集,这是一种新的量子化学数据集,用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子,二聚体,二肽和溶剂化氨基酸的构象。它包括15个元素,带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3(bj)/def2-tzVPPD理论水平以及其他有用的数量(例如多极矩和键阶)上计算出的力和能量。我们在其上训练一组机器学习潜力,并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的,准备使用潜在功能用于分子模拟的宝贵资源。
translated by 谷歌翻译